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(57) Abstract: The invention concerns a voice recognition 
method, comprising a voice recognition step taking into ac- 
count a grammar language model (310) and using a decod- 
ing algorithm for identifying a series of words from a series 
of voice samples (201), the language model being associated 
with at least a dynamically developed finite-state or infinite- 
state automaton (313). 




(57) Abrege : L* invention concerne un precede* de reconnais- 
sance vocale, comprenant une £tape de reconnaissance vocale 
prenant en compte au moins un modele de langage grammati- 
cal (3 10) et mettant en oeuvre un aJgorithme de d£codage des- 
tine* a identifier une suite de mots a partir d'une suite d'£chan- 
tillons vocaux (201), le modele de langage etant associe* a au 
moins un automate (313) a etats, fini ou infini, developpe dy- 
namiquement. 
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MODBLBS DB LANGUAGE DYNAMIQUES POUR LA RECONNAISSANCE DE LA PAROLE 

La presente invention se rapporte au domaine de la reconnaissance vocale. 
Plus precisement, l'invention concerne les interfaces vocales a large vocabulaire. 
Elle s'applique notamment dans le domaine de la television. 

Les systemes d'information ou de contrdle utilisent de plus en plus souvent une 
interface vocale pour rendre rapide et intuitive rinteraction avec l'utilisateur. Ces 
systemes devenant plus complexes, les styles de dialogue supported sont de plus en plus 
riches, et Ton entre dans le domaine de la reconnaissance vocale continue, a tres large 
vocabulaire. 

On sait que la conception d'un systeme de reconnaissance vocale continue, a 
large vocabulaire, suppose de produire un modele de langage qui d<§finit ou approxime 
les enchalnements acceptable de mots, ces enchainements constituant les phrases 
15 reconnucs par le modele de langage. 

Dans un systeme a large vocabulaire, le modele de langage permet done au 
module de traitement vocal de construire la phrase (e'est-a-ture la suite de mots) la plus 
probable par rapport au signal acoustique qui lui est presente. Cette phrase doit ensuite 
Stre analysee par un module de comprehension afin de la transformer en une serie 
20 d'actions adequates au niveau du systeme commande vocalement. 

Actuellement, deux approches sont couramment utUisees, a savoir les modeles 
de type N-gram et les grammaires. 

On considere dans la suite les modeles de langage sous forme de grammaire, ce 
qui n'est pas limitatif, car les applications vocales devenant plus complexes, elles 
25 necessitent de plus en plus des formalismes tres expressifs pour le developpement des 
modeles de langage. 

Selon I'&at de la technique, les systemes de reconnaissance vocale utilisant des 
grammaires les compilent sous une forme d' automate a etats fini. 

C'est cet automate qui est utilise par le module de traitement vocal afin 
30 d' analyser les suites de mots confonnes a la grammaire. 

Une telle approche a l'avantage de minimiser le cout apparent a l'execution, 
puisque la grammaire est transformee une fois pour toutes avant l'execution (par un" 
processus de compilation) en une representation interne parfaitement taillee pour les 
besoins du module de traitement vocal. 
35 Par contre, elle a l'inconvenient de construire une representation (automate) qui 

peut devenir tres consommatrice de memoire dans le cas de grammaires complexes, ce 
qui peut poser des problemes de ressources sur le systeme informatique d'executionl et 
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peut meme ralentir l'execution si la solicitation du mecanisme de pagination de la 
memoire virtuelle du systeme d'execution devient trop frequente. 

De plus, comme indiqud plus haut, les grammaiies se complexifient en taille et 
en expressivite au fur et a mesure de la generalisation des systemes a commande vocale. 
Ceci ne fait qu'augmenter la taille de l'automate associe et done aggraver les 
inconvenients mentionn6s ci-dessus. 

L'invention selon ses differents aspects a notamment pour objectif de pallier ces 

inconvenients de Tart ant6rieur. 

Plus precisement, un objectif de l'invention est de fournir un systeme et un 
procede de reconnaissance vocale optimisant l'utilisation de la memoire, notamment 
pour les applications a large vocabulaire. 

L'invention a egalement pour objectif une reduction des coftts de mises en ceuvre 

ou d'utilisation. 

Un objectif complementaire de l'invention est de fournir un procede pennettant 
15 une economie d'6nergie, notamment lorsque le procede est mis en ceuvre dans un 
dispositif avec une source d'energie autonome (par exemple une tel6commande infra- 
rouge ou un telephone mobile). 

Un objectif de l'invention est egalement une amelioration de la rapidite de la 

reconnaissance vocale. 

20 Dans ce but, l'invention propose un proc<§d<§ de reconnaissance vocale, 

remarquable en ce qu'il comprend une 6tape de reconnaissance vocale prenant en 
compte au moins un modele de langage grammatical et mettant en ceuvre un algorithme 
de ddcodage destine a identifier une suite de mots a partir d'une suite d'echantillons 
vocaux, le moddle de langage etant associ6 a au moins un automate a etats, fini ou 
25 infini, d^veloppe dynamiquement 

On note qu'ici, le ou les automates a 6tats frnis sont developp6s dynamiquement 
en fonction notamment des besoins, par opposition aux automates developpes 
statiquement qui sont developpes de maniere complete, systematiquement. 

On note Egalement que les automates infinis peuvent b^ficier de cette 
30 technique puisqueseule une partie finie de l'automate est developp6e. 

Selon une caractdristique particuUere, le procede est remarquable en ce qu'il 
comprend une etape de d6veloppement dynamique en largeur du ou des automates a 
partir d'au moins une grammaire defrnissant un modele de langage. 

Selon une caracteristique particuliere, le procede est remarquable en ce qu'il 
35 comprend une etape de construction d'au moins une partie d'un automate comprenant 
au moins une branche, chaque branche comprenant au moins un nceud, l'etape de 
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construction comprenant une sous-etape de developpement s&ectif du ou des noeuds, 
selon une regie pr&i&erminee, 

Ainsi, pr^ferentiellement, le proced* ne permet pas le developpement 
systematique de tous les noeuds mais selectivement selon une regie pred&erminee. 

Selon une caracteristique particuliere, le proc6d6 est remarquable en ce que 
1'algorithme comprend une etape de requete de developpement d'au moins un noeud non 
developpe permettant un developpement du ou des noeuds selon la regie pre^6terminee. 

Ainsi, le precede- permet avantageusement le developpement des noeuds requis 
par 1'algorithme lui-meme en fonction de ses besoins, life notamment aux informations 
acoustiques entrantes. Ainsi, si un passage par un noeud donne non developpe est peu 
vraisemblable, 1'algorithme ne va pas requerir le d6veloppement de ce noeud En 
revanche, un passage vraisemblable par ce noeud entrainera son developpement. 

Selon une caracteristique particutiere, le procede est remarquable en ce que, 
selon la regie predeterminee, pour chaque branche, chaque premier noeud de la branche 
15 est d6velopp6. 

Ainsi, de facon avantageuse, le procedS autorise systematiquement le 
developpement du premier noeud de chaque branche issue d'un noeud developpe\ 

Selon une caracteristique particuliere, le procede est remarquable en ce que, pour 
au moins une branche comprenant un premier noeud et au moins un noeud suivant le 
20 premier noeud, l'etape de construction comprend une sous-etape de remplacement du ou 
des noeuds suivants par un noeud special non developpe. 

Ainsi, le proc&ie ne permet avantageusement que les developpements de noeuds 
nexessaires, economisant ainsi des ressources d'un dispositif mettant en oeuvre le 
proc6d6. 

25 Selon une caracteristique particuliere, le procede est remarquable en ce que 

1'algorithme de decodage est un algorithme de decodage a maximum de vraisemblance. 

Ainsi, le procedS est avantageusement compatible avec un algorithme a 
maximum de vraisemblance, tel notamment 1'algorithme de Viterbi permettant ainsi une 
reconnaissance vocale fiable et d'une complexity raisonnable de mise en oeuvre, 
30 notamment dans le cas d'applications a large vocabulaire. 

L'invention concerne egalement un dispositif de reconnaissance vocale, 
remarquable en ce qu'il comprend des moyens de reconnaissance vocale prenant en 
compte au moins un modele de langage grammatical et mettant en oeuvre un algorithme 
de decodage destine a identifier une suite de mots a partir d'une suite d'echantillons 
35 vocaux, le modele de langage etant associe a un automate k etats, fini ou infini, 
d6velopp6 dynamiquement 
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L'invention concerne, en outre, un produit programme d'ordinateur comprenant 
des elements de programme, enregistres sur un support lisible par au moins un 
microprocesseur, remarquable en ce que les elements de programme contrdlent le ou les 
microprocesseurs pour qu'ils effectuent une etape de reconnaissance vocale prenant en 
5 compte au moins un modele de langage grammatical et mettant en ceuvre un algorithme 
de d6codage destine a identifier une suite de mots a partir d'une suite d'echantillons 
vocaux, le modele de langage etant associ6 a un automate a etats, fini ou infini, 
developpe dynamiquement. 

L'invention concerne, aussi, un produit programme d'ordinateur, remarquable en 
10 ce que le programme comprend des sequences d' instructions adapt6es a la mise en 
oeuvre du procede de reconnaissance vocale decrit precedemment lorsque le programme 
est execute sur un ordinateur. 

Les avantages du dispositif de reconnaissance vocale, et des produits programme 
d'ordinateur sont les memes que ceux du procede de reconnaissance vocale, ils ne sont 
15 pas deiai lies plus amplement. 

D'autres caracteristiques et avantages de l'invention apparaitront plus clairement 
a la lecture de la description suivante d'un mode de realisation preferentiel, donne a titre 
de simple exemple illustratif et non limitatif, et des dessins annexes, parmi lesquels : 

- la figure 1 presente un synoptique general d'un systeme comprenant un 
20 boitier a commande vocale, dans lequel la technique de l'invention est mise 

en oeuvre; 

- la figure 2 presente un synoptique du boitier de reconnaissance vocale du 
systeme de la figure 1; 

- la figure 3 d6crit un schema electrdnique d'un boitier de reconnaissance 
25 vocale mettant en ceuvre le synoptique de la figure 2; 

- la figure 4 decrit un automate statique de reconnaissance vocale, connu en 
soi ; 

- la figure 5 presente un algorithme de developpement dynamique en largeur 
d'un noeud mis en ceuvre par le boitier des figures 1 et 3 ; 

30 _ les figures 6 a 10 illustrent des demandes de developpement d'un reseau 

dynamique de reconnaissance vocale, selon l'algorithme de la figure 5. 
Si Ton revient au fonctionnement standard d'un module de traitement vocal, Ton 
constate que pour une entree acoustique donnee, seulement un infime sous-ensemble de 
l'automate representant le modele de langage est explore, du fait de l'elagage important 
35 opere par le module de traitement vocal. En effet, parmi tous les mots 
grammaticalement acceptables a une etape donnee du calcul, la tres grande majoritd sera 
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disqualify, du fait de la trop grande difF6rence phonetico-acoustique avec le signal 
entrant dans le syst&me. 

Partant de cette constatation, le principe general de Finvention repose sur le 
remplacement de la representation sous forme d'un automate calculi statiquement par 
5 une representation dynamique pennettant le developpement progressif de la grammaire, 
ce qui pennet de r6soudre le probl&ne de taille. 

Ainsi, rinvention consiste k utiliser une representation pennettant de developper 
les amorces de phrases de manfere progressive. 

Intuitivement, cela revient k remplacer une representation en extension de 
10 Fautomate (c'est-&-dire qui enumdre tous ses etats) associe k la grammaire, par une 
representation en " intension 99 9 c'est-^-dire une representation qui permet de calculer au 
fur et k mesure des besoins les parties de Fautomate potentiellement interessantes pour 
la suite du processus de reconnaissance. 

Les techniques de programmation pennettant d'exploiter cette representation en 
15 " intension 99 sont bas6es, par exemple, sur : 

- des techniques de recherche de plus courts chemins dans les graphes, (decrites 
notamment dans Fouvrage " Graphes et Algorithmes " s ecrit par Michel Gondran et 
Michel Minoux et paru en 1 990 aux editions Eyrolles); 

- des techniques devaluation paresseuse utilisees dans les compilateurs des langages 
20 fonctionnels (telles que decrites dans le livre " The Implementation of Functional 

Programming Languages 99 ou, en fran9ais " Fimpiementation des langages de 
programmation fonctionnelles ecrit par Simon Peyton Jones et paru en 1987 aux 
editions Prentice Hall International Series on Computer Science) ; ainsi que 

- des techniques connues de demonstration automatique comme le " structure- 
25 sharing " (dont on trouvera une description dans le livre " Principles of Artificial 

Intelligence 99 ou, en fran9ais 5 " les principes de Fintelligence artificielle 99 9 ecrit par 
Nils Nilsson et paru en 1980 aux editions Springer-Verlag). 

On presente, en relation avec la figure 1, un synoptique general d'un systdme 
comprenant un boftier k commande vocale 102 mettant en oeuvre la technique de 
30 Finvention. 

On note que ce systeme comprend notamment : 

- une source vocale 100 pouvant notamment etre constituee d'un microphone 
destine a capter un signal vocal produit par un locuteur ; 

- un boftier de reconnaissance vocale 102 ; 

35 - un boftier de commande 1 05 destine k piloter un appareil 1 07 ; 

- un appareil commande 1 07, par exemple de type teieviseur ou 
magnetoscope. 
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La source 100 est relfee au boitier de reconnaissance vocale 102, via une liaison 

101 qui lui permet de transmettre une onde source analogique representative d'un signal 
vocal vers le boitier 102. 

Le boitier 102 peut r^cup^rer des informations 104 de contexte (telles que par 
5 exemple, le type d'appareil 107 pouvant etre contrdie par le boitier de commande 105 
ou la liste des codes de commandes) via une liaison 104 et emettre vers le boitier de 
commande 105 des commandes via une liaison 103. 

Le boitier de commande 105 6met des commandes via une liaison 106 par 
exemple infrarouge vers Pappareil 107. 
10 Selon le mode de realisation consider^ la source 100, le boitier de 

reconnaissance vocale 102 et le boitier de commande 105 font partie d'un meme 
dispositif et ainsi ies liaisons 101, 103 et 104 sont des liaisons internes au dispositif. Par 
contre, la liaison 106 est typiquement une liaison sans fil. 

Selon une premiere variante de realisation de 1' invention d£crite k la figure 1, les 
15 Elements 100, 102 et 105 sont en partie ou completement s6par£s et ne font pas partie 
d'un meme dispositif. Dans ce cas, les liaisons 101, 103 et 104 sont des liaisons 
extemes filaires ou non. 

Selon une deuxieme variante, la source 100, les boitiers 102 et 105 ainsi que 
Fappareil 107 font partie d'un mSme dispositif et sont relies entre eux par des bus 
20 internes (liaisons 101, 103, 104 et 106). Cette variante est particulierement interessante 
quand le dispositif est, par exemple, un telephone ou terminal de telecommunication 
portable. 

La figure 2 presente un synoptique d'un boitier a commande vocale tel le boitier 

102 illustre en regard de la figure 1. 

25 On note que le boitier 102 re9oit de l'exterieur l'onde source analogique 101 qui 

est traitee par un Decodeur Acoustico-Phonetique 200 ou DAP (appeie u front-end 99 en 
anglais). Le DAP 200 echantillonne a intervalles reguliers (typiquement toutes les 
10ms) l'onde source 101 pour produire des vecteurs reels ou appartenant a des livres de 
code (ou " code books " en anglais), representant typiquement des resonances buccales 

30 qui sont emises via une liaison 201 vers un moteur de reconnaissance 203. 

On rappelle qu'un decodeur acoustico-phonetique traduit les echantillons 
numeriques en symboles acoustiques choisis dans un alphabet predetermine. 

Un decodeur linguistique traite ces symboles dans le but de determiner, pour une 
sequence A de symboles, la sequence W de mots la plus probable, etant donne la 

35 sequence A. Le decodeur linguistique comporte un moteur de reconnaissance utilisant 
un modeie acoustique et un module de langage. Le modeie acoustique est par exemple 
un modeie dit " Markov cache 99 (" Hidden Markov Model " ou HMM). II calcule de 
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facon connue en soi les scores acoustiques des sequences de mots considerees. Le 
modele de langage mis en ceuvre dans le present exemple de realisation est base sur une 
grammaire decrite a l'aide de regies de syntaxe de forme Backus Naur. Le modele de 
langage est utilise^ pour determiner une plurality d'hypotheses de sequences de mots et 
5 pour calculer des scores linguistiques. 

Le moteur de reconnaissance est base sur un algorithme de type Viterbi appete 
"n-best". L'algorithme de type n-best determine a chaque etape de l'analyse d«une 
phrase les n sequences de mots les plus probables. En fin de phrase, la solution la plus 
probable est choisie parmi les n candidats, a partir des scores fournis par le modele 
10 acoustique et le modele de langage. 

On demt maintenant plus particulierement le fonctionnement du moteur de 
reconnaissance. Comme mention^, ce dernier utilise un algorithme de type Viterbi 
(algorithme n-best) pour analyser une phrase composee d'une sequence de symboles 
(vecteurs) acoustiques. L'algorithme determine les N sequences de mots les plus 
probables, etant donn* la sequence A de symboles acoustiques observed jusqu'au 
symbole courant. Les sequences de mots les plus probables sont d&erminees a travers le 
modele de langage de type grammaire stochastiques. En liaison avec les modeles 
acoustiques des elements terminaux de la grammaire, qui sont basSs sur des HMM 
(Modeles de Markov Caches ou "Hidden Markov Models"), on produit alors un 
modele de Markov cach6 global pour 1'application, qui inclut done le modele de 
langage et par exemple les ptenomenes de coarticulations entre elements terminaux. 
L'algorithme de Viterbi est mis en ceuvre en parallele, mais au lieu de retenir. une seule 
transition vers chaque etat lors de 1'iteration i, on retient pour chaque <§tat les N 
transitions les plus probables. 

Des informations concernant en particulier les algorithmes de Viterbi, de 
recherche par faisceau et de " n-best " sont donnes dans l'ouvrage : 

" Statistical methods for speech recognition" par Frederik Jelinek, MIT press 
1999 ISBN 0-262-10066-5 chapitres 2 et 5 en particulier. 

L'analyse effectuee par le moteur de reconnaissance s'arrSte lorsque l'ensemble 
des symboles acoustiques relatifs a une phrase a ete traite. Le moteur de reconnaissance 
dispose alors d'un treillis constitue des 6tats a chaque iteration precedente de 
l'algorithme et des transitions entre ces <§tats, jusqu'aux etats finaux. En dernier lieu, on 
retient parmi les etats finaux et leurs N transitions associees les N transitions les plus 
probables. En retracant les transitions a partir des etats finaux, on determine les N 
sequences de mots les plus probables correspondant aux symboles acoustiques. Ces 
sequences sont alors soumises a un traitement utilisant un parseur dans un but de 
s&ectionner l'unique sequence finale sur des criteres grammaticaux. 
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Ainsi, a l'aide de dictionnaires 202, le moteur de reconnaissance 203 analyse les 
vecteurs reels qu'il recoit en utilisant notamment des modeles de Markov caches ou 
HMM (de 1' anglais Hidden Markov Models) et des modeles de langage (qui 
representent la probability pour qu'un mot suive un autre mot) selon un algorithme de 

5 Viterbi avec developpement dynamique en largeur des etats qui est detaille plus loin. 

Le moteur de reconnaissance 203 fournit des mots qu'il a identifies a partir des 
vecteurs recus a un moyen de traduction de ces mots en commandes pouvant etre 
comprises par l'appareil 107. Ce moyen utilise un precede de traduction a intelligence 
artificielle qui lui-meme prend en compte un contexte 104 fourni par le boitier de 

10 commande 105 avant d'emettre une ou plusieurs commandes 103 vers le boitier de 
commande 105. 

La figure 3 illustre schimatiquement un module ou dispositif de reconnaissance 
vocale 102 tel qu'illustre en regard de la figure 1, et mettant en ceuvre le synoptique de 
ia figure 2. 

15 Le boitier 1 02 comprend relies entre eux par un bus d' adresses et de donntes : 

une interface vocale 301 ; 
un convertisseur Analogique-Num&ique 302 
un processeur 304 ; 
une m&noire non volatile 305 ; 
20 - une mdmoire vive 306 ; et 

une interface 307 de commande d'un appareil. 
Chacun des elements illustres en figure 3 est bien connu de l'homme du metier. 
Ces 61ements communs ne sont pas deerits ici. 

On observe en outre que le mot " registre " utilise dans toute la description 
25 designe dans chacune des memoires mentionnees, aussi bien une zone de memoire de 
faible capacity (quelques donnees binaires) qu'une zone memoire de grande capacite 
(permettant de stocker un programme entier ou l'integralit6 d'une sequence de donnees 
de transactions). 

La memoire non volatile 305 (ou ROM) conserve dans des registres qui par 
30 commodite possedent les memes noms que les donnees qu'ils conservent : 

- le programme de fonctionnement du processeur 3 04 dans un registre " prog " 308 ; 

- un dictionnaire phonetique des mots devant 6tre compris par le moteur de 
reconnaissance dans un registre 309 ; et 

- un dictionnaire grammatical des nceuds non terminaux utilise par le moteur de 
3 5 reconnaissance pour construire des automates, dans un registre 310. 

La memoire vive 306 conserve des donnees, des variables et des resultats 
interm^diaires de traitement et comprend notamment : 
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- un automate 313 ; et 

- une representation d'un treillis 3 1 4. 

La figure 4 illustre un automate statique de reconnaissance vocale, connu en soi, 
qui permet de d6crire un treillis de Viterbi utilise pour la reconnaissance vocale. 
5 Selon T6tat de Tart, l'integralite de ce treillis est prise en compte. 

Par souci de clarte, on considere un module de petite taille qui correspond k la 
reconnaissance d'une question ltee au programme de chaine de television. Ainsi, on 
suppose qu'un boltier de commande vocale doit reconnaitre une phrase du type " Qu'est 
qu'il y a, k une certaine date, sur une certaine chaine de television ? " 
10 L'automate correspondant, selon l'&at de Tart, est d^veloppe in extenso selon la 

figure 4 et comprend : 

des noeuds repr&sentes sous une forme rectangulaire, qui sont expanses ; et 

- des noeuds terminaux sous une forme elliptique, qui ne sont pas expanses et 
qui correspondent k un mot ou une expression du langage couranf. 

15 Ainsi, le noeud de base 400 " G " est expanse en quatre noeuds 401, 403, 404 et 

406, confomtement & la rdgle de grammaire: 

<G> = qu'est-ce qu'il y a <Date> sur <ChaIne> 
II n*y a qu'une possibilite pour les noeuds 401 et 404 qui correspondent done a 
des noeuds terminaux respectivement 402 ("qu'est-ce qu'il y a ") et 405 
20 ("sur "). 

En revanche, le noeud 403 (" Date ") est developpe en deux noeuds 407 
(" jour ") et 408 (" Complement Jour ") qui sont eux memes expanses suivant 
une alternative (respectivement 409 (" ce ") et 413 (" demain ") pour le jour et 410 
(" midi ") et 411 (" soir ") pour le complement conformement aux regies : 
25 <Date> = <Jour> <Complement Jour> 

<Jour> - ce | demain 

<Compl6ment Jour> = midi | soir 

Ainsi, la date peut Stre deScodee selon quatre possibilites : " ce midi " ce soir 
" demain midi " et " demain soir 
30 Dememe,le noeud 406 ("Chaine ") est d6velopp6 en une alternative : 

- deux noeuds successifs 417 (" la ") correspondant k un noeud terminal 419 et 
418 ( "Chalnel2") qui est lui-m8me expanse selon une alternative 
comprenant les noeuds 420 ("une") et 422 ("deux") assoctes 
respectivement aux noeuds terminaux 421 et 423; ou 

35 - un noeud 424 (" FR3 ") qui correspond k un noeud terminal 425 ; 

conformement aux regies: 
<Chaine> = la <Chainel2> | FR3 
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<Chainel2> = une I deux 

On peut noter que cet automate, bien que correspondant k un modele de petite 
taille, comprend de nombreux 6tats d6velopp6s et conduit k un treillis de Viterbi 
n6cessitant d6jk une m6moire et des ressources de calcul non n6gligeables relativement 
5 k la taille du module (on note que la taille du treillis croit avec le nombre d' Stats de 
T automate). 

Selon Tinvention, on remplace un automate enticement calcute statiquement par 
un automate calcute au fur et k mesure des besoins de Talgorithme de Viterbi qui 
cherche k determiner le meilleur chemin dans cet automate. C'est ce que Ton nomme le 

10 " d6veloppement dynamique en largeur puisque la grammaire est d6velopp6e sur tous 
les fronts jug6s int6ressants par rapport k T information acoustique entrante. 

Ainsi, la figure 5 d£crit un algorithme de d6veloppement dynamique en largeur 
d'un noeud susceptible d'etre expanse selon Tinvention. Cet algorithme est mis en 
oeuvre par le processeur 304 du dispositif ou module de reconnaissance vocale 102 tel 

1 5 qu'illustr£ en regard de la figure 3 . 

Cet algorithme est appliqu6 aux noeuds k d^velopper (tel que choisi par 
Talgorithme de Viterbi) d'une mantere recursive pour former un automate comprenant 
pour base un noeud d£velopp6, jusqu'i ce que tous les successeurs immediats soient 
6tiquet£s par un moddle markovien, c'est-^-dire qu'il faut developper r6cursivement 

20 tous les non-terminaux en partie gauche d'un automate (en supposant que T automate est 
construit de gauche k droite, le premier element d'une branche se trouvant done a 
gauche). 

Pour construire les portions d* automate necessaires issues du developpement 
d'un noeud, le processeur 304 utilise dynamiquement : 
25 - le dictionnaire 310 associ6 aux noeuds non-terminaux (qui permet d'obtenir 

leur definition) ; et 

- le dictionnaire 309 associS aux mots (qui permet d'obtenir leur HMM). 
On note que de tels dictionnaires sont coimus en soi puisque 6galement utilises 
dans la construction statique d'automates complets selon T&at de Tart. 
30 Ainsi, selon Tinvention, les noeuds spSciaux introduits (appetes " DynX" dans 

les figures) font aussi reference a des portions de definitions du dictionnaire et sont 
expanses au strict minimum des besoins. 

Selon Talgorithme de developpement d'un noeud, au cours d'une premiere etape 
500, le processeur 304 initialise des variables de travail ltees a la prise en compte du 
3 5 noeud consid6r£, et notamment un compteur de branches L 
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Puis, au cours d'une 6tape 501, le processeur 304 prend en compte la z* me 
branche issue d'un premier developpement du noeud consideire, qui devient la branche 
active a developper. 

Ensuite, au cours d'un test 502, le processeur 304 determine si le premier noeud 
5 de la branche active est un noeud terminal. 

Dans la negative, au cours d'une &ape 503, le processeur 304 developpe le 
premier noeud de la branche active, sur base de l'algorithme dgfini en regard de la figure 
5 selon un mecanisme r6cursif. 

Si le resultat du test 502 estpositif ou a la suite de l'<5tape 503, au cours d'un test 
10 504, le processeur 3 04 determine si la branche active comporte un seul noeud. 

Dans la negative, le processeur 304 groupe les noeuds suivants de la branche i en 
un seul noeud special Dynx qui ne sera developp<§ ulterieurement qu'en cas de necessity. 
L'execution de ralgorithme de Viterbi peut en effet conduire a eliniiner cette branche, 
la probability d'occurrence associee au. premier noeud de la branche (materialisee par la 
15 metrique de noeud dans le treillis developpe a partir de l'automate) pouvant Stre trop 
faible par rapport a une ou plusieurs alternatives. Ainsi, dans ce cas, le developpement 
du noeud special Dynx n'est pas effects ce qui permet d'6conomiser du temps de calcul 
CPU de microprocesseur et de la m6moire. 

Si le resultat du test 504 est positif ou a la suite de I'&ape 505, au cours d'un test 
20 506, le processeur 304 determine si la branche active est la derniere branche issue du 
premier developpement du noeud consider. 

Dans raffirmative, au cours d'une etape 507, l'algorithme de developpement 
d'un noeud prend fin. 

Dans la negative, au cours d'une <Stape 508, le compteur de branche i est 
25 increments d'une unite et l'etape 50 1 est reiteree. 

A titre d'exemple, cet algorithme est appliquS a une entree acoustique 
correspond a la phrase "qu'est-ce qu'il y a ce midi sur FR3?"avecla 
gram m aire suivante : 

<G> = qu'est-ce qu'il y a <Date> sur <Chaine> 
30 <Date> = <Jour> <Complement Jour> 

<Jour> - ce | demain 

<ComplementJour> = midi | soir 

<Chaine> = la <Chainel2> | FR3 

<Chainel2> = une | deux 
35 Sous l'hypothese que les modeles acoustiques sont suffisamment fins pour 

differencier tous les mots de la grammaire, les demandes successives de developpement 
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dynamique de l'algorithme de Viterbi conduiront aux etats successifs de l'automate 
dynamique decrits dans les figures 6 a 10. 

Ainsi, selon l'invention, rautomate va se construixe petit a petit, au fur et a 
mesure des demandes de ralgorithme de Viterbi. 

5 On note que, lorsque ralgorithme de Viterbi demande un developpement 

dynamique a partir d'un etat de l'automate, le developpement doit se poursuivre jusqu'a 
ce que tous les successeurs immediats soient etiquetes par un modele markovien, c'est- 
a-dire qu'il faut developper recursivement tous les non-terminaux en partie gauche 
(exemple : a la figure 3, le developpement de <Date> est evidemment n6cessaire, mais 

10 celui de < Jour > Test aussi afin de rendre visibles les mots " ce " et " demain "). 

La figure 6 presente l'automate issu de l'application a un premier noeud de base 
" G " 600, de l'algorithme de developpement d'un noeud presente en regard de la figure 

5, selon l'invention. 

On note que le nceud " G " 600 se decompose en une seule branche. 
15 Le premier nceud "qu' est ce qu' il y a " 601 de cette branche est un 

nceud terminal. II est done associe directement a l'expression 603 correspondante. 

La branche contient au moins un autre noeud selon la grammaire d6crivant ce 
noeud. On va done represents cette branche sous la forme d'un premier noeud et d'un 
noeud special Dynl qui n'est pas d£velopp6. 
20 Le noeud 600 se decompose en une seule branche. Le d6veloppement du noeud 

600 est done termine. 

En resume, l'automate ainsi construit est defini, selon le formalisme 

precSdemment utilise^ de la maniere suivante : 

<G> = qu' est-ce qu' il y a <Dynl> 
25 La figure 7 presente l'automate issu de l'application au nceud special Dynl 602, 

de l'algorithme de developpement d'un noeud presente en regard de la figure 5, selon 
l'invention. 

L'algorithme de Viterbi considerant comme vraisemblable le debut de phrase 
"qu' est-ce qu'il y a ", va requerir le developpement du noeud 602. 
30 On note que le nceud 602 se decompose en une seule branche. 

Le premier noeud "Date" 700 de cette branche n'est pas un nceud terminal. II est 
done d6velopp6 de maniere recursive selon l'algorithme de developpement illustre en 

regard de la figure 5. 

Le noeud 700 se decompose en une seule branche. 
35 Le premier nceud "Jour" 702 de cette branche n'est pas un noeud terminal. II est 

done lui-meme developp6. 

Le noeud 702 se decompose en deux branches symbolisant une alternative. 
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Le premier noeud de chacune de ces deux branches respectivement "ce" 704 et 
"demain" 706 est un noeud terminal. D est done associe directement a l'expression 
correspondante respectivement 705 et 707. 

Ces branches ne contenant qu'un seul noeud, le developpement du noeud 702 est 
termine. 

La branche issue du noeud " Date " 703 contenant plus d'un noeud, elle se 
decompose en le noeud " Jour " 702 developpe et en un noeud special Dyn3 703. 

De meme, la branche issue du noeud Dynl 602 contenant plus d'un noeud, elle se 
decompose en le noeud " Date " 700 developpe et en un noeud special Dyn2 701. 

Le developpement du noeud 600 est termine de cette maniere et, en resume, 
rautomate issu du noeud 600 ainsi construit est defini, selon le formalisme 
precedemment utilise, de la maniere suivante : 
<Dynl> = <Date> <Dyn2> 
<Date> = <Jour> <Dyn3> 
!5 <Jour> = ce | demain 

La figure 8 presente l'automate issu de l'application au noeud special Dyn3 703, 
de 1'algorithme de d6veloppement d'un noeud presente en regard de la figure 5, selon 
Tinvention. 

L'algoritfame de Viterbi considerant comme vraisemblable le debut de phrase 
qu'est-ce qu'il y a ce", varequerirle developpement du noeud 703. 
On note que le noeud 703 se decompose en une seule branche. 
Le seul noeud "Complement Jour" 800 de cette branche n'est pas un noeud 
terminal. II est done developpe de maniere recursive selon 1'algorithme de 
developpement illustrd en regard de la figure 5. 
25 Le noeud 800 se decompose en deux branches symbolisant une alternative. 

Le seul noeud de chacune de ces deux branches respectivement "midi" 801 et 
"soir" 804 est un noeud terminal. H est done associe directement a l'expression 
correspondante respectivement 802 et 804. 

Ces branches ne contenant qu'un seul noeud, le developpement du nceud 703 est 
30 termine et, en resume, l'automate issu du noeud 703 ainsi construit est defini, selon le 
formalisme precedemment utilise^ de la maniere suivante : 
<Dyn3> = Complement Jour> 
<Complement. Jour> = midi | soir 

La figure 9 presente l'automate issu de l'application au noeud special Dyn2 701, 
35 de 1'algorithme de developpement d'un noeud presente en regard de la figure 5, selon 
Tinvention. 
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L'algorithme de Viterbi consid6rant comme vraisemblable le debut de phrase 
M qu' est-ce qu' il y a ce midi", varequerkle developpement du noeud 703. 
Le noeud 701 se decompose en une seule branche. 

Le premier noeud "sur" 901 de cette branche est un noeud terminal. II est done 
5 assocte directement a regression correspondante 903. 

La branche contenant plus d'un noeud, elle se decompose en le noeud terminal 
"sur" 901 developpS et en un noeud special Dyn4 704. 

Le developpement du noeud 701 est termini de cette maniere et, en resume, 
Tautomate issu du noeud 701 ainsi construit est defini, selon le formalisme 
1 0 prec6demment utilise, de la maniere suivante : 
<Dyn2> = sur <Dyn4> 

La figure 10 presente l'automate issu de l'application au noeud special Dyn4 902, 
de ralgorithme de developpement d'un noeud presents en regard de la figure 5, selon 
1' invention. 

15 L'algorithme de Viterbi considerant comme vraisemblable le debut de phrase 

" qu' est-ce qu' il y a ce midi sur", va requ6rir le developpement du 
noeud 902. 

Le noeud 902 se decompose en deux branches symbolisant une alternative. 

Le premier noeud de chacune de ces deux branches respectivement "la" 1000 et 
20 "FR3" 1004 est un noeud terminal. II est done associe directement a l'expression 
correspondante respectivement 1002 et 1004. 

La premiere branche issue du noeud Dyn4 902 contenant plus d'un noeud, elle se 
decompose en le noeud "la" 1000 et en un noeud special Dyn5 1001 . 

La deuxieme branche ne contenant qu'un seul noeud, le developpement du noeud 
25 600 est termine de cette maniere et, en resume, l'automate issu du noeud 902 ainsi 
construit est defini, selon le formalisme precedemment utilise, de la maniere suivante : 

<Dyn4> - la <Dyn5> I FR3 

Selon l'exemple, si l'entree acoustique correspond a la phrase " qu' est-ce 
qu'il y a ce midi sur FR3 ", ralgorithme de Viterbi eiimine la possibilite 
30 d'avoir le mot " la " correspondant au noeud terminal 1002, sa probabilite d'occurrence 
etant tres faible par rapport a l'alternative representee par le noeud terminal " FR3 ". II 
ne va done pas demander le developpement du noeud special Dyn5 1001 qui suit le 
noeud " la " 1002 sur la meme branche. 

On note qu'ainsi, on limite l'expansion de l'automate en fonction des donnees 
35 acoustiques entrantes. Selon l'exemple decrit, le vocabulaire est relativement etrbit pour 
des raisons de clarte, mais, il est clair que la difference de taille entre un automate 
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construit dynamiquement et un automate statique croit en fonction de la largeur du 
vocabulaire. 

Bien entendu, Tinvention n'est pas limitee aux exemples de realisation 
mentionnes ci-dessus. 

En particulier, l'homme du metier pourra apporter toute variante dans le 
developpement dynamique en largeur et notamment dans la deterniination descas ouun 
noeud special est insert dans un automate. En effet, de nombreuses variantes pour cette 
insertion sont possibles entre les deux cas extremes que sont le mode de realisation de 
Tinvention decrit en figure 5 (un nceud n'est developpS qu'en cas de necessity, d'une 
part, et le cas statique de Fetal de Fart, d'autre part. 

De raeme, le proceed de reconnaissance vocale ne se lirnite pas au cas ou un 
algorithxne de Viterbi est mis en ceuvre mais a tous les algorithmes utilisant un modele 
dc Markov, notamment dans le cas des algorithmes bases sur des treillis. 

On note aussi que 1'invention ne se lirnite pas a une implantation purement 
15 maieridle mais qu'elle peut aussi Stre mise en ojuvre sous la forme d'une s6quence 
d'instructions d'un programme infonnatique ou toute forme mixant une partie 
materielie et une partie logicielle. Dans le cas ou 1'invention est implantee partieUement 
ou totalement sous forme logicielle, la sequence d'instructions correspondante pourra 
etre stockee dans un moyen de stockage amovible (tel que par exemple une disquette, 
un CD-ROM ou un DVD-ROM) ou non, ce moyen de stockage etant Usibie 
partieUement ou totalement par un ordinateur ou un microprocesseur. 
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REVINDICATIONS 



1. Precede de reconnaissance vocale, caracterise en ce qu'U comprend une etape de 
reconnaissance vocale prenant en compte au moins un modele de langage grammatical 

5 (310) et mettant en oeuvre un algorithme de decodage destine a identifier une suite de 
mots a partir d'une suite d'echantillons vocaux (201), ledit modele de langage etant 
associe a au moins un automate (3 13) a etats, fini ou infini, developpe dynamiquement. 

2. Proced6 selon la revendication 1 , caracteris6 en ce qu'U comprend une etape de 
developpement dynamique en largeur dudit ou desdits automates a partir d'au moins 

1 0 une grammaire (3 10) definissant un modele de langage. 

3. Procede selon la revendication 2, caracterise en ce qu'U comprend une etape de 
construction d'au moins une partie d'un automate comprenant au moins une branche, 
chaque branche comprenant au moins un noeud, ladite etape de construction comprenant 
une sous-etape de developpement selectif dudit ou desdits noeuds, selon une regie 

15 pr6determinee. 

4. Proc£de selon la revendication 3," caracterise en ce que ledit algorithme 
comprend une etape de requSte de developpement d'au moins un noeud non developpe 
permettant un developpement dudit ou desdits nceuds selon ladite regie predeterrninee. 

5. Procade selon l'une quelconque des revindications 3 et 4, caracterise en ce que, 
20 selon ladite regie predeterminee, pour chaque branche, chaque premier noeud de ladite 

branche est developpe (503). 

6. Procede selon l'une quelconque des revendications 3 a 5, caracterise en ce que, 
pour au moins une branche comprenant un premier noeud et au moins un noeud suivant 
ledit premier noeud, ladite etape de construction comprend une sous-etape de 

25 remplacement dudit ou desdits nceuds suivants par un noeud special non developpe 
(505). 

7. Procede selon l'une quelconque des revendications 1 a 6 caracterise en ce que 
ledit algorithme de decodage est un algorithme de decodage a maximum de 
vraisemblance. 

30 8. Dispositif (102) de reconnaissance vocale, caracterise en ce qu'U comprend des 
moyens de reconnaissance vocale (203) prenant en compte au moins un modele de 
langage grammatical (202) et mettant en oeuvre un algorithme de decodage destine a 
identifier une suite de mots a partir d'une suite d'echantillons vocaux (201), ledit 
modele de langage etant associe a un automate (313) a etats, fini ou infini, developpe 

35 dynamiquement. 

9. Produit programme d'ordinateur comprenant des elements de programme, 
enregistres sur un support lisible par au moins un microprocesseur, caracterise en ce que 
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lesdits 616ments de programme contrdlent le ou lesdits microprocesseurs pour qu'ils 
effectuent une 6tape de reconnaissance vocale prenant en compte au moins un module 
de langage grammatical et mettant en oeuvre un algorithme de decodage destine k 
identifier une suite de mots k partir d'une suite d'Schantillons vocaux, ledit module de 
5 langage 6tant assocte & un automate h 6tats, fini ou infini, d6velopp6 dynamiquement 
10, Produit programme d'ordinateur, caract6ris6 en ce que ledit programme 
comprend des sequences d'instructions adaptees & la mise en oeuvre d'un proc&te de 
reconnaissance vocale selon Tune quelconque des revendications 1 & 7 lorsque ledit 
programme est execute sur un ordinateur. 

10 
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